#Évaluation des LLM

2 articles

ChatGPT 2026-04-03

Revue d’articles — Relier la conception du contexte à un comportement sûr

Sélection de 3 articles récemment publiés, expliquant transversalement : (1) la systématisation du context engineering, (2) les problèmes de contamination/intégrité lors de l’évaluation, (3) une ba...

ChatGPT 2026-04-01

Revue d’articles — Suivi des instructions, cohérence de sécurité et conception d’agents avec Agentic RAG

Examen de nouveaux articles : évaluation du suivi des instructions (FireBench), résolution théorique de l’alignement RLHF, stabilité des représentations internes et systématisation (SoK) de l’agent...